PDFPlumber使用入门

2023-11-05 17:01| 来源: 网络整理| 查看: 265

文章目录背景环境教程开始应用场景安装命令行使用可选参数 Python包简单样例读取PDF pdfplumber.PDF类 pdfplumber.Page类对象(Object) `chars` / `annos` 属性 `line` 属性 `rect` 属性 `curve` 属性可视化调试使用`.to_image()`创建`PageImage` 基础`PageImage`方法绘图方法表格抽取表格抽取方法表格抽取设置表格抽取策略注意引用

背景

最近需要一个工具来解析PDF文件，获取其文本内容、标题、表格等，在GitHub上发现了这个神仙工具，发现用起来还挺方便的。在这里做一个简单的介绍，帮助一些想入门的英文不好的同学。

环境

macOS 10.14 PDFPlubmer v0.5.21 python>=3.5

教程开始

首先附上GitHub链接：https://github.com/jsvine/pdfplumber

应用场景

获取PDF中的每个文本字符、矩形和行的详细信息，以及可以进行表格提取和可视化调试。主要应用于机器生成的PDF上，而非扫描的pdf文档。

安装

可以直接使用pip进行python包的安装，执行指令：

pip install pdfplumber

之后运行python，若能成功导入该包即安装成功。

$ python3 Python 3.6.5 (default, Jun 17 2018, 12:13:06) [GCC 4.2.1 Compatible Apple LLVM 9.1.0 (clang-902.0.39.2)] on darwin Type "help", "copyright", "credits" or "license" for more information. >>> import pdfplumber >>> # 安装成功命令行使用

这里提供一个官方的简单的使用样例

$ curl "https://cdn.rawgit.com/jsvine/pdfplumber/master/examples/pdfs/background-checks.pdf" > background-checks.pdf $ pdfplumber background-checks.csv

执行完成后即可将一个pdf中的各种详细信息，包含每一个字符、线、表格等，导出到一个csv文件中。

可选参数参数描述 --format [format] csv or json。json格式返回更多信息；它包含PDF级别的元数据(metadata)和每个页面的高度/宽度信息。 --pages [list of pages] 一个以空格分隔，以1索引开头的页面或带连字符的页面范围的列表。例如1,11-15，它将返回第1、11、12、13、14和15页的数据。 --types [list of object types to extract] 选择为char、anno、line、curve、rect、rect_edge。默认为char，anno，line，curve，rect。 Python包简单样例 import pdfplumber with pdfplumber.open("path/to/file.pdf") as pdf: first_page = pdf.pages[0] print(first_page.chars[0]) 读取PDF

pdfplumber提供了两种读取pdf的方式：

pdfplumber.open("path/to/file.pdf") pdfplumber.load(file_like_object)

这两种方法都返回pdfplumber.PDF类的实例(instance)。

【本文地址】

公司简介

联系我们